检索结果

Select

1. 融合个体偏差信息的文本情感分析模型

陈丽安, 过弋

《计算机应用》唯一官方网站 2024, 44 (1): 145-151. DOI: 10.11772/j.issn.1001-9081.2023010103

摘要（120）

HTML （4）

PDF （766KB）（80）

目前情感分析任务经常只聚焦于评论文本本身，忽略了评论者与被评论者的个体偏差特征，会显著影响对文本的整体情感判断。针对上述问题，提出一种融合评论双边个体偏差信息的文本情感分析模型UP-ATL （User and Product-Attention TranLSTM）。该模型使用自注意力机制、交叉注意力机制对评论文本与个体偏差信息分别进行双向融合，在融合过程中采用定制化权重的计算方式，以缓解实际应用场景中冷启动带来的数据稀疏问题，最终得到特征充分融合的评论文本和评论双边的表示信息。选取餐饮领域、电影领域的三个真实公开数据集Yelp2013、Yelp2014、IMDB进行效果验证，与UPNN（User Product Neural Network）、NSC（Neural Sentiment Classification）、CMA（Cascading Multiway Attention）、HUAPA （Hierarchical User And Product multi-head Attention）等基准模型进行比较。实验结果表明，相较于比较模型中最好的HUAPA模型，UP-ATL的准确度在三个数据集上依次分别提高了6.9、5.9和1.6个百分点。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

2. 情感增强的对话文本情绪识别模型

王雨, 袁玉波, 过弋, 张嘉杰

《计算机应用》唯一官方网站 2023, 43 (3): 706-712. DOI: 10.11772/j.issn.1001-9081.2022010044

摘要（589）

HTML （29）

PDF （1123KB）（312）

针对现有的许多研究忽略了说话人的情绪和情感的相关性的问题，提出一种情感增强的图网络对话文本情绪识别模型——SBGN。首先，将主题和对话意图融入文本，并微调预训练语言模型RoBERTa以提取重构的文本特征；其次，给出情绪分析的对称学习结构，将重构特征分别输入图神经网络（GNN）情绪分析模型和双向长短时记忆（Bi-LSTM）情感分类模型；最后，融合情绪分析和情感分类模型，将情感分类的损失函数作为惩罚以构建新的损失函数，并通过学习调节得到最优的惩罚因子。在公开数据集DailyDialog上的实验结果表明，相较于DialogueGCN模型与目前最先进的DAG-ERC模型，SBGN模型的微平均F1分别提高16.62与14.81个百分点。可见，SBGN模型能有效提高对话系统情绪分析的性能。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

3. 基于层级多任务BERT的海关报关商品分类算法

阮启铭, 过弋, 郑楠, 王业相

《计算机应用》唯一官方网站 2022, 42 (1): 71-77. DOI: 10.11772/j.issn.1001-9081.2021010122

摘要（513）

HTML （34）

PDF （697KB）（205）

海关商品申报场景下，需采用分类模型将商品归类为统一的海关（HS）编码。然而现有海关商品分类模型忽略了待分类文本中词语的位置信息，同时HS编码数以万计，会导致类别向量稀疏、模型收敛速度慢等问题。针对上述问题，结合真实业务场景下人工逐层归类策略，充分利用HS编码的层次结构特点，提出了一种基于层级多任务BERT（HM-BERT）的分类模型。一方面通过BERT模型的动态词向量获取了报关商品文本中的位置信息，另一方面利用HS编码不同层级的类别信息对BERT模型进行多任务训练，以提高归类的准确性和收敛性。在国内某报关服务商2019年的报关数据集上进行的所提模型的有效性验证，相比BERT模型，HM-BERT模型的准确率提高了2个百分点，在模型训练速度上也有所提升；与同样分层级的H-fastText相比，准确率提高了7.1个百分点。实验结果表明，HM-BERT模型能有效改善海关报关商品的分类效果。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

4. 面向外汇市场监测的分布式计算框架设计

程文亮, 王志宏, 周虞, 过弋, 赵俊锋

计算机应用 2020, 40 (1): 173-180. DOI: 10.11772/j.issn.1001-9081.2019061002

摘要（245）

PDF （1204KB）（280）

针对金融外汇市场监测指标计算复杂度高、完备性强、效率低等问题，基于Spark大数据架构提出了一种新的面向外汇市场监测的分布式计算框架。首先，对外汇市场监测的业务特性和现有技术框架进行了分析总结；然后，综合考虑了外汇单市场多指标和多市场多指标并行计算的业务特性；最后，基于Spark的有向无环图（DAG）作业调度机制和YARN的资源调度池隔离机制，分别提出了外汇市场级的有向无环图（M-DAG）模型和市场级资源分配策略——M-YARN。实验结果表明，所提面向外汇市场监测的分布式计算框架相对于传统技术框架在性能上提高了80%以上，可以有效保证大数据背景下外汇市场监测指标计算的完备性、精准性和时效性。

参考文献 | 相关文章 | 多维度评价

Select

5. 嵌入互联网舆情强度的人民币汇率预测

王吉祥, 过弋, 戚天梅, 王志宏, 李真, 汤敏伟

计算机应用 2019, 39 (11): 3403-3408. DOI: 10.11772/j.issn.1001-9081.2019040726

摘要（460）

PDF （914KB）（410）

针对目前人民币汇率预测研究存在的数据源单一导致难以提升预测效果的问题，提出一种嵌入互联网舆情强度的预测技术，通过融合多方面数据源进行对比分析，有效降低了人民币汇率的预测误差。首先，融合互联网外汇新闻数据和历史行情数据，并将多源文本数据转化为可计算的特征向量；其次，通过情感特征向量构建五种特征组合并对其进行对比，给出了嵌入互联网舆情强度的特征组合作为预测模型输入；最后，设计外汇舆情影响汇率预测的滑动时间窗口，建立基于机器学习的汇率预测模型。实验结果表明，嵌入互联网舆情的特征组合相对于不含舆情的特征组合在均方根误差（RMSE）和平均绝对误差（MAE）上分别提升了9.8%和16.2%；此外，长短期记忆网络（LSTM）预测模型比支持向量回归（SVR）、决策回归（DT）和深度神经网络（DNN）预测模型表现更好。

参考文献 | 相关文章 | 多维度评价

Select

6. 基于词典和弱标注信息的电影评论情感分析

樊振, 过弋, 张振豪, 韩美琪

计算机应用 2018, 38 (11): 3084-3088. DOI: 10.11772/j.issn.1001-9081.2018041245

摘要（740）

PDF （804KB）（693）

针对评论文本情感分析研究中数据标注费时费力的问题，提出了一种新的数据自动标注方法。首先，通过基于情感词典的方法计算出评论文本的情感倾向；其次，利用用户评分的弱标注信息和基于词典方法的情感倾向对评论文本自动标注；最后，利用支持向量机（SVM）对评论文本进行情感分类。所提出的数据自动标注方法在两种类型数据集情感分类准确率上分别达到了77.2%和77.8%，相对于单一的利用用户评分对数据标注的方法，分别提高了1.7个百分点和2.1个百分点。实验结果表明，提出的数据自动标注方法在电影评论情感分析中能提高分类效果。

参考文献 | 相关文章 | 多维度评价

Select

7. 基于构成模式和条件随机场的企业简称预测

孙丽萍, 过弋, 唐文武, 徐永斌

计算机应用 2016, 36 (2): 449-454. DOI: 10.11772/j.issn.1001-9081.2016.02.0449

摘要（796）

PDF （990KB）（1004）

针对目前企业营销的不断深入,企业简称被各大新闻广泛使用,而作为新词又难以被有效识别的问题,提出一种基于构成模式和条件随机场(CRF)的企业简称预测方法。首先,从语言学的角度对企业全称和简称的构成规律进行了总结,并采用词库以及规则相结合的方式对Bi-gram算法进行改进,提出CBi-gram算法,实现了对企业全称的结构化切分,并提高了企业全称中核心词识别的准确性。然后,依据上述切分结果对企业类型进行再次细分,并通过人工总结和规则自学习的方法形成不同企业类型下的简称规则集。最后再基于规则生成企业的候选简称集,降低了不适用的规则对于不同类型的企业在生成简称过程中产生的噪声。另外,为了弥补单纯基于规则在解决全称缩写和简写缩写混合的局限性,引入CRF,从统计的角度对简称进行预测,并选取词、音调以及词在全称组成成分中的位置作为模型特征,进行模型训练,以实现两种方法的相互补充。实验结果显示,该方法具有较高的准确率,输出的企业简称集基本覆盖了企业的常用简称范围。

参考文献 | 相关文章 | 多维度评价